Hunting for Big Fish
¶
Identifikation von möglichen Steuerbetrügern anhand eines Airbnb Datensatzes.
¶
Alexander Gayko, Ramin Nobakht, Lennart Küppers
¶
Szenario
¶
Finanzamt will Steuerhinterziehung minimieren
nur wenig Mitarbeiter und Zeit
daher Priorisierung von potentiellen Steuerhinterziehern
Vorgehen
¶
Data Exploration
Bereinigen der Airbnb Daten
Gruppierung von vermutlich zusammengehörigen Listings und Hosts
Ermittlung minimale Einnahmen
Visualisierung Big Fishes
Statistische Analyse (ANOVA)
Data Clean
¶
“It is a capital mistake to theorize before one has data.”
- Sherlock Holmes
¶
Mängel in den Daten
¶
Sinnlose Werte (minimum_nights < 0)
Widersprüche (construction_year > last_review)
Datentyp Features (price 10$ -> price 10.0)
Verarbeitung leerer Felder (reviews = NaN)
Identifying the Big Fishes
¶
Wo werden die meisten Einnahmen generiert?
¶
Generierung Big Fish Value
¶
$$\text{bigfishvalue} = ( \text{price} \times \text{minimum nights} \times \text{number of reviews} ) + ( \text{service fee} \times \text{number of reviews} )$$
New York's Big Fishes
¶
Name
Totals
0
Michael
30652696.0
506
Chris
20593985.0
746
John
19754656.0
1107
David
18750391.0
1502
Daniel
17039742.0
1742
Eric
15450261.0
1916
Andrew
14728670.0
Most Big Fishes in Lower & Western Manhattan, Brooklyn
¶